История LLM-агентов: 10 ярких моментов

Привет, Хабр! Меня зовут Руслан Гримов, я Head of ML в проекте idSport в компании Friflex. Мы разрабатываем продукты для оцифровки спорта и используем компьютерное зрение, чтобы организовывать трансляции партий на шахматных турнирах, а также распознавать и записывать интересные моменты в бильярде и футболе.

LLM-агенты связаны с моей работой скорее косвенно, но я вижу в них огромный потенциал и для развития наших продуктов, и для множества других задач. В этой статье собрал десять ярких моментов из истории LLM-агентов. Надеюсь, они помогут понять, какой впечатляющий путь проделали эти системы, и просто вас развлекут.

Как писал Пелевин, «в сущности, функция LLM – это доведенное до немыслимого совершенства автозаполнение. LLM не думает. Она тренируется на огромном корпусе созданных прежде текстов «…» и на этой основе предсказывает, как будет расти и развиваться новая последовательность слов, и как она, вероятней всего, развиваться не будет… Это похоже на процесс формирования юного члена общества на основе ежедневно поступающих вербальных инструкций, подзатыльников и наблюдения за тем, кому дают еду, а кому нет». 

Это определение большой языковой модели (LLM) вольное, но довольно точное. LLM — это нейронная сеть, обученная на большом объеме текста. Она может анализировать, понимать и генерировать тексты на естественном языке, использовать обширные базы данных и понимать контекст. 

Как развивалась идея о том, что машину можно научить понимать и создавать текст, как будто это пишет человек, расскажу дальше. 

1957: Фрэнк Розэнблатт создает перцептрон

Первая попытка научить машину самостоятельно обучаться

В середине прошлого века американский ученый Розэнблатт увлеченно изучал человеческий мозг. Он мечтал создать искусственную модель, которая могла бы имитировать его способность обучаться и распознавать паттерны.

Первая страница статьи Розенблатта «Проектирование интеллектуального автомата» из журнала Research Trends Корнеллской авиационной лабораторией, лето 1958

«Рассказы о машинах, обладающих человеческими качествами, давно захватили научную фантастику. Но мы собираемся стать свидетелями рождения такой машины — машины, способной воспринимать, распознавать и идентифицировать свое окружение без обучения или контроля со стороны человека», — писал Розэнблатт в 1958. 

Свои идеи ученый изложил в работе «Принцип перцептрона». Перцептроном он назвал устройство, которое моделировало процесс человеческого восприятия. Это была простая модель искусственной нейронной сети. В 1960 году Розэнблат показал, как она работает, на первом в истории нейрокомпьютере «Марк-1».

У этого устройства был своеобразный глаз — матрица фоточувствительных элементов. «Марк-1» умел распознавать некоторые английские буквы и геометрические формы, которые Розэнблатт показывал ему на карточках или на бумаге. Кроме того, компьютер мог изменять весовые коэффициенты связей, чтобы улучшать распознавание после обратной связи о результате. 

Конечно, возможности «Марк-1» были весьма скромными. Например, если буквы были частично закрыты или их размер отличался от образцов, по которым обучался компьютер, машина их не узнавала. Но все равно это было значительное достижение для своего времени. Оно заложило основу для дальнейших исследований в области нейронных сетей и искусственного интеллекта.

Wikimedia Commons

1965: Джозеф Вайценбаум создает Элизу

Первая система обработки естественного языка

Пока Розэнблатт разрабатывал перцептрон, другой американский ученый, Джозеф Вайценбаум, работал над программой Элиза. Элиза была простым чат-ботом. Она анализировала предложения, которые вводил пользователь, и находила ключевые слова.

Затем Элиза формировала ответы с помощью шаблонов. Программа работала на основе заранее запрограммированных скриптов, которые определяли правила обработки фраз и реакции на них. Самым известным скриптом был DOCTOR. Он пародировал работу психотерапевта в стиле Карла Роджерса. 

Часто программа переформулировала фразы собеседника в виде вопросов. Например, если пользователь вводил: «Мне грустно», Элиза могла ответить: «Почему вы думаете, что вам грустно?». 

Сам Вайзенбаум хотел показать на Элизе, что общение у людей и машин скорее поверхностное. Но многие действительно чувствовали связь с программой, хотя она была очень простой, и воспринимали ее как интеллектуального собеседника. 

Вопросы этики и технологий настолько захватили исследователя, что он написал целую книгу «Сила компьютера и человеческий разум: от суждения к вычислению» — о том, что компьютер не должен заменять человеческое суждение и интеллект.

Элиза даже не была настоящим искусственным интеллектом. Она не понимала смысл вопросов и не могла учиться на своем опыте. Но программа показала, что компьютер может участвовать в осмысленных диалогах на естественном языке. 

1970: Марвин Минский и Сеймур Паперт публикуют книгу «Перцептроны»

Начинается «зима искусственного интеллекта»

Профессор Массачусетского технологического Марвин Минский относился к идеям Розенблатта скептически. Ученые периодически публично и горячо спорили о жизнеспособности перцептрона на конференциях. Розенблатт считал, что может научить компьютеры понимать язык, а Минский говорил, что у перцептрона для этого слишком простые функции.

Одними спорами все не ограничилось. Минский вместе с Папертом исследовали математические свойства перцептрона и показали, что он не способен решать целый ряд задач, связанных с инвариантным представлением. Например, читать буквы или цифры, которые по-разному расположены на странице.

Их книга «Перцетроны» вышла в 1970. После публикации интерес к исследованию нейросетей упал настолько, что семидесятые стали называть «зимой искусственного интеллекта». Переместился не только научный интерес, но и субсидии американских правительственных организаций — к радости последователей символьного подхода. 

1986: Дэвид Румельхарт и Джеффри Хинтон предложили метод обратного распространения ошибки 

Интерес к нейросетям возрождается

Критика перцептрона привела не только к «зиме искусственного интеллекта»: исследователи стали искать более мощные модели. На смену однослойному перцептрону Розэнблатта пришел многослойный. 

В статье Learning representations by back-propagating errors («Обучение представлений с помощью обратного распространения ошибки») Румельхарт и Хинтон показали, что многослойный перцептрон справляется с задачами, которые были не под силу его однослойному предшественнику. Например, с XOR. 

ХОR — это логическая операция, которая дает значение истина (или 1), если входные значения различаются, и ложь (или 0), если оба входных значения одинаковы.

Таблица истинности для XOR выглядит так:

Вход: 0, 0 → Выход: 0

Вход: 0, 1 → Выход: 1

Вход: 1, 0 → Выход: 1

Вход: 1, 1 → Выход: 0

Однослойный перцептрон мог решать только линейные задачи, а в ХОR данные нельзя разделить по линейному признаку. Многослойный решал ХОR и другие подобные задачи. В том числе, благодаря методу обратного распространения, который предложили Румельхарт и Хинтон. 

Метод состоял в том, чтобы итеративно корректировать веса нейронных связей сети и двигаться в этом направлении до тех пор, пока ошибка не станет достаточно маленькой. 

Математический аппарат метода обратного распространения ошибки довольно прост. Но он позволил нейронным сетям обучаться на данных значительно сложнее и разнообразнее, чем раньше.

1997: IBM Deep Blue побеждает чемпиона мира по шахматам Гарри Каспарова

Машина смогла превзойти человека в сложной задаче

Шахматы долгое время оставались областью, где царил человеческий интеллект. Пока в 1997 году суперкомпьютер Deep Blue не обыграл Гарри Каспарова. 

Это был второй матч машины с действующим чемпионом мира. В первом Deep Blue проиграл. 

Исторический матч состоял из шести партий и проходил в Нью-Йорке. Первая партия завершилась победой Каспарова. Во второй шахматист сдался, а третья, четвертая и пятая закончились вничью. Шестая партия продолжалась всего 19 ходов: Каспаров неудачно разыграл дебют, получил плохую позицию и быстро проиграл. 

Победа Deep Blue показала, что машины могут превзойти человека в интеллектуально сложных задачах, а еще продемонстрировала возможности машинного обучения и анализа больших данных. Это событие стало источником вдохновения для дальнейших исследований искусственного интеллекта.

Кстати, Каспаров сомневался, что матч был честным: программа играла с перепадами и выбирала нехарактерные ходы. Но мошенничество IBM не было доказано. 

2007: IBM представила систему Watson

Она обрабатывала естественный язык и отвечала на вопросы в формате викторины.

Watson еще не был LLM-агентом в современном понимании. Но его архитектура уже включала в себя различные методы анализа и обработки естественного языка. Например, компьютер делил текст на отдельные слова и фразы, а затем преобразовывал их в токены. 

Еще Watson умел строить синтаксическое дерево предложения, определять значение и контекст слов и фраз и устанавливать, к какой части речи относится каждое слово.

В 2011 году компьютер отправился на телевикторину Jeopardy и обыграл двух лучших игроков в истории шоу — Кена Дженнингса и Раста Колемана. После этого Watson нашел применение в других отраслях, от финансов до медицины. 

2017: инженеры Google описали архитектуру Transformer

Transformer радикально изменила подход к обработке естественного языка и NLP

Ашиш Васвани и его коллеги опубликовали культовую статью Attention Is All You Need (Внимание — все, что вам нужно) и рассказали в ней про архитектуру нейронной сети под названием Transformer.

Раньше преобразованием последовательностей обычно занимались рекуррентные нейросети. Transformer основывалась только на механизмах внимания без рекурсии и сверток. Подробнее об этой архитектуре можно почитать в статье «Как обучают GPT»

О значении Transformer в истории LLM-агентов можно говорить много. Но достаточно будет, что сегодня это доминирующая архитектура нейронных сетей для NLP.  

2018: OpenAI представила GPT-1

Архитектура Transformer доказала свою жизнеспособность

GPT-1 — первая в своем роде модель